DecisionTreeRegressor参数详解 | 您所在的位置:网站首页 › 决策树 参数 › DecisionTreeRegressor参数详解 |
criterion {“squared_error”, “friedman_mse”, “absolute_error”, “poisson”}, default=”squared_error” 衡量分割质量的函数。支持的标准有: "squared_error "为平均平方误差,相当于方差减少作为特征选择标准,使用每个终端节点的平均值使L2损失最小;“friedman_mse”,使用平均平方误差与Friedman改进得分来寻找潜在的分裂;"absolute_error "为平均绝对误差,使用每个终端节点的中位数使L1损失最小;“poisson”,使用减少泊松偏差来寻找分裂。splitter {“best”, “random”}, default=”best” 用来选择每个节点的分割的策略。支持的策略是 "best "以选择最佳分割,"random "以选择最佳随机分割。 max_depth int, default=None 树的最大深度。如果没有,那么节点将被展开,直到所有的叶子都是纯的,或者直到所有的叶子包含的样本少于min_samples_split。 min_samples_split int or float, default=2 分割一个内部节点所需的最小样本数。 如果是int,那么考虑min_samples_split作为最小数量。如果是float,那么min_samples_split是一个分数,ceil(min_samples_split * n_samples)是每次分割的最小样本数。min_samples_leaf int or float, default=1 一个叶子节点所需的最小样本数。任何深度的分裂点只有在左右两个分支中至少留下min_samples_leaf训练样本时才会被考虑。这可能会产生平滑模型的效果,特别是在回归中。 如果是int,那么考虑min_samples_leaf作为最小的数字。如果是float,那么min_samples_leaf是一个分数,ceil(min_samples_leaf * n_samples)是每个节点的最小样本数。 0.18版中的修改:为分数增加了浮动值。min_weight_fraction_leaf float, default=0.0 在一个叶子节点上所需的权重总和(所有输入样本)的最小加权部分。不提供sample_weight时,样本的权重相等。 max_features int, float or {“auto”, “sqrt”, “log2”}, default=None 寻找最佳分割时要考虑的特征数量。 如果是int,那么在每次分割时考虑max_features特征。如果是float,那么max_features是一个分数,每次分割时考虑max(1, int(max_features * n_features_in_))特征。如果是 “auto”,那么max_features=n_features。如果是 “sqrt”,那么 max_features=sqrt(n_features)。如果 “log2”,那么max_features=log2(n_features)。如果没有,那么max_features=n_features 。从1.1版本开始废弃:"auto"选项在1.1版本中已经废弃,将在1.3版本中删除。 注意:在找到节点样本的至少一个有效分区之前,搜索分割不会停止,即使需要有效地检查超过max_features的特征。random_state int, RandomState instance or None, default=None 控制估计器的随机性。即使splitter被设置为"best",特征在每次分割时都会被随机地排列。当max_features < n_features ,时,算法会在每次分割时随机选择max_features,然后在其中找到最佳分割。但是,即使max_features=n_features,在不同的运行中找到的最佳分割也可能不同。这种情况下,如果标准的改进对几个分割是相同的,并且必须随机选择一个分割。为了在拟合过程中获得确定的行为,random_state必须被固定为一个整数。 max_leaf_nodes int, default=None 以最佳优先的方式生长一棵具有max_leaf_nodes的树。最佳节点(Best nodes)被定义为相对减少的杂质。如果没有,则叶子节点的数量不限。 min_impurity_decrease float, default=0.0 如果某个节点分裂引起的杂质(impurity)减少大于或等于这个值,那么该节点将被分裂。 加权的杂质减少方程式(impurity decrease equation)如下: N_t / N * (impurity - N_t_R / N_t * right_impurity - N_t_L / N_t * left_impurity)其中N是样本总数,N_t是当前节点的样本数,N_t_L是左子的样本数,N_t_R是右子的样本数。 N、N_t、N_t_R和N_t_L都是指加权的总和,如果sample_weight被传递的话。 ccp_alpha non-negative float, default=0.0 用于最小成本-复杂度修剪的复杂度参数。将选择成本复杂度最大且小于ccp_alpha的子树。默认情况下,不进行修剪。 |
CopyRight 2018-2019 实验室设备网 版权所有 |